iT邦幫忙

2023 iThome 鐵人賽

DAY 5
0
AI & Data

30天深度學習-從零到英雄系列 第 5

啟動吧!深度強化式學習

  • 分享至 

  • xImage
  •  

昨天講到強化式學習,今天來介紹「深度」強化式學習。深度強化式學習非常的好懂就是深度學習+強化學習(忘記深度學習的可以回去第一天複習喔!)
也就是說深度強化式學習使用了神經網絡的技術,而神經網路的強項就是在於特徵擷取。因為強化式學習在環境所做的互動可能千奇百種,若有深度學習的幫助就可以提供更好的結果。因此要說深度學習跟強化式學習是相輔相成一點也不為過。


深度強化式學習

深度強化式學習在很多地方都有他的影子,今天介紹的是棋盤類遊戲,AlphaGo。那他是怎麼運作的呢?來講講最簡單的三大步驟
1.AlphaGo先收集大量的專業棋手的棋譜(包括許多圍棋大師的對局,這些棋譜是用來教導AlphaGo基本的圍棋規則和策略)
2.使用很多網路(神經網路、價值網路、策略網路)來決定下一步的下棋位置
3.使用強化式學習不斷進行互動(包括自我對弈),並從回饋中修整以增加獲勝率。可是研究人員希望可以發展出一套從零開始學習的能力,而有了AlphaGo Zero的誕生。


AlphaGo Zero的創新

  • 在訓練過程中完全依賴自我對弈學習,完全沒有使用人類專業棋譜。
  • AlphaGo 使用了多個神經網絡,而AlphaGo Zero則是用同一個深度學習網路,評估下一步最有可能的落子位置和局面。
  • AlphaGo Zero每一步思考時間約「0.4」秒,一天半後AlphaGo Zero的表現就超越AlphaGo了!

今日總複習:AlphaGo收集專業棋譜,使用多個神經網絡來決定下一步的棋步,以及透過強化學習不斷修正策略。而AlphaGo Zero則實現了從零開始學習的能力。深度學習和強化學習相輔相成,使得機器能夠在複雜環境中學習和表現出色。

補充影片:Alpha Go用什麼算法擊敗李世乭?
https://www.youtube.com/watch?v=jBTm2xsQgW0


上一篇
揭開強化式學習的面紗吧!
下一篇
規劃神經網路的架構
系列文
30天深度學習-從零到英雄30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言